Поиск по сходству. BLAST, E-value
Проверка гомологичности белков, найденных поиском по сходству
Для выполнения задания один я выбрала 9 белков из найденного поиском по сходству списка
результатов. Первый поиск, одним из критериев которого был WordSize = 6, обнаружил слишком много
белков с очень маленьким E-value. Поэтому я была вынуждена сменить значение данного критерия с
шести на три. Девять моих находок описаны в Таблице 1.
Таблица 1. Характеристика белков |
Номер белка |
ID/AC |
Название белка |
Coverage |
E-value |
Identity % |
Гомологичность |
0 |
KST73838.1 |
Бифункциональный белок FolD (5,10-Метилентетрагидролат дегидрогеназа и Метилтетрагидрофолат циклогидролаза) |
100% |
исходный белок |
100% |
исходный белок |
1 |
A9BWT7.1 |
Бифункциональный белок FolD (Метилентетрагидролат дегидрогеназа и Метилтетрагидрофолат циклогидролаза) |
98% |
1e-154 |
76% |
+ |
2 |
Q21WC0.1 |
Бифункциональный белок FolD (Метилентетрагидролат дегидрогеназа и Метилтетрагидрофолат циклогидролаза) |
96% |
3e-144 |
72% |
+ |
3 |
Q8DQD3.2 |
Бифункциональный белок FolD (Метилентетрагидролат дегидрогеназа и Метилтетрагидрофолат циклогидролаза) |
96% |
2e-107 |
59% |
+ |
4 |
Q2GCV3.1 |
Бифункциональный белок FolD (Метилентетрагидролат дегидрогеназа и Метилтетрагидрофолат циклогидролаза) |
95% |
2e-80 |
51% |
+ |
5 |
B0S8U6.1 |
Бифункциональный белок FolD (Метилентетрагидролат дегидрогеназа и Метилтетрагидрофолат циклогидролаза) |
96% |
1e-76 |
45% |
+ |
6 |
A3MXE6.1 |
Бифункциональный белок FolD (Метилентетрагидролат дегидрогеназа и Метилтетрагидрофолат циклогидролаза) |
97% |
7e-38 |
35% |
- |
7 |
Q98QV3.1 |
Бифункциональный белок FolD (Метилентетрагидролат дегидрогеназа и Метилтетрагидрофолат циклогидролаза) |
94% |
5e-32 |
28% |
- |
8 |
Q5RJY4.1 |
Дегидрогеназа / редуктаза из семейства семейства 7В SDR (или Короткоцепочная дегидрогеназа / редуктаза 1 из семейства 32С) |
28% |
0.88 |
27% |
- |
9 |
Q9KWX0.1 |
Жгутиконосный филамент 31,3 кДа основного белка (или Жгутиковая белковая субъединица B2) |
30% |
7.9 |
24% |
- |
На Рис.1 представлено множественное выравнивание, состоящее из локальных выравниваний
системы BLAST. Самая первая из последовательностей - это белок из первого семестра,
остальные девять найдены специально для выполнения этого практикума. Черной рамкой обведены
блоки для проверки гомологичности.
Рис.1 Множественное выравнивание десяти белков
Ссылки на fasta-файл и на JalView проект.
Обоснование гомологичности исходного белка и первых пяти находок:
~ Все эти шесть белков имеют идентичные названия (На самом деле, названия семи первых моих находок
абсолютно одинаковы). Судя по названию, можно предположить, что все эти белки обладают одной и той же
функцией.
~ Во время анализа множественного выравнивания всех 10 последовательностей были найдены блоки, с
помощью которых можно было судить о гомологичности тех или иных последовательностей:
~ ~ Первый блок (совсем небольшой - с 5 по 8 позицию) включает в себя первые 6 последовательностей.
Так как участок не обладает большими размерами, судить о последовательностях, которые расположены ниже
- нерационально.
~ ~ Второй блок ( с 34 по 47 позицию) включает в себя 5 последовательностей. Включительно до 7 белка
встречаются похожие участки, но судить по ним о гомологичности невозможно.
~ ~ Четвертый блок (со 101 по 112 позицию) содержит пять первых последовательностей. Для позиций со
101 по 105 блок легко можно расширить вплоть до 7 последовательности. Однако уже со 106 позиции
начинаются сильные расхождения, которые делают расширение блока невозможным.
~ ~ Седьмой блок (с 248 по 259 позицию) включает в себя 6 первых белков. Изначально он содержал
только пять, но, с учетом большого количества абсолютно консервативных и абсолютно функционально
консервативных позиций, я сочла возможным расщирить его до шести, не смотря на замену Р на Е в
249 позиции и замену М на Y в 258 позиции шестой последовательности.
~ ~ Девятый блок (с 284 по 295 позицию) содержит 6 последовательностей. В 7 и 8 последовательностях
видны ярко выраженные схожие участки, однако всего в блоке 12 столбцов, поэтому количество абсолютно
консервативных позиций, равное 4 при объединении в блок 8 первых белков, кажется мне недостаточным.
~ ~ Для Третьего (54-58), Пятьго (125-128), Шестого (177-191) и Восьмого (265-272) блоков все
достаточно очевидно, и их особенности легко отследить по Рис.1.
~ Первые семь белков имеют множество схожих участков, что обусловлено их общей функцией (общая
функция белка не является признаком их гомологичности, тем более здесь выполнение общей функции - лишь мое предположение),
но говорить об общей гомологичности этих белков нельзя. Из всех найденных блоков только Восьмой
достоверно подтверждает их гомологичность, а этого недостаточно. Последние же две последовательноти
практически не имеют с остальными ничего общего, поэтому их негомологичность с исходной последовательностью
очевидна.
Стоит учесть, что блок - неоднозначное понятие, а значит, нельзя утверждать, что все выбранные мной
участки идеально подходят под определение блока. Однако, я постаралась учесть все критерии, указанные
в задании.
Описание крупных перестроек между парой белков, имеющих гомологичные участки (домены)
Для выполнения второго задания я выбрала белок из группы гемопротеинов, основной белок крови -
гемоглобин
[1]
[2]
[3]
(точнее - белок гемоглобина Туфтовой утки [Aythya fuligula (Tufted duck) (Anas fuligula)
[4]],
Hemoglobin subunit beta [Субъединица гемоглобина бета (P84792)]
[5]).
Это небольшой белок длиной 147 а.к.о. Как и все гемоглобины, он участвует в переносе кислорода из
легких в различные периферические ткани. Вторая последовательность, которую я выбрала - это также
гемоглобин, но уже белок из организма Индийской колючехвостой ящерицы [Saara hardwickii (Indian
spiny-tailed lizard) (Uromastyx hardwickii)
[6]],
Hemoglobin subunit alpha-1 [Субъединица гемоглобина альфа-1, другие названия - Alpha-1-globin,
Hemoglobin alpha-1 chain
[7]).], его длина - 90 а.к.о.
Эта пара белков, согласно BLAST, имеет характеристики:
Query cover = 62%
E value = 3e-09
Ident = 34%
Accession = P18979.1
При поиске выборки, параметр Word size был установлен на 2.
Рис.2 - это карта локального выравнивания, построенна при E-value 1e-15 и Word size 3.
Рис.2 Карта локального сходства
Комментарии к Рис.2 и описание выявленных событий:
~ Ось Х - Hemoglobin subunit beta, Ось Y - Hemoglobin subunit alpha-1.
~ Фиолетовыми окружностями обведены участки, на которых произошла делеция последовательности.
Самая крупная на последовательности P18979.1 - на оси Х - (темно-фиолетовая жирная линия).
Чем мельче делеция - тем тоньше и ярче окраска линии окружности.
~ Оранжевым выделены участки, предположительно подвергшиеся дупликации (для
примера выделены только два участка, по желанию, некоторые участки дупликации, не
обозначенные цветом можно посмотреть на Рис.3).
~ Гомологичные участки представлены черным цветом. Но из-за разности длинн последовательностей
один и тот же участок с оси Y равен трем (один черный и два оранжевых) участкам оси Х.
~ В итоге, последовательности можно обозначить таким образом (обобщенно):
~ ~ Ось Х: А В С Е М В С В С Е
~ ~ Ось Y: А В С Е М
На Рис.3 представлена разметка карты по секциям. Расшифровка цветового фильтра А - зеленый,
В - желтый, С - синий, Е - розовый, М - серый.
Рис.3 Разметка карты локального сходства
Ссылки практикума
[1]
- Википедия. Гемоглобин.
[2]
- Химический факультет МГУ. Ткани и органы. Кровь. гемоглобин.
[3]
- Биохимия для студента. Гемоглобин - основной белок крови.
[4]
- Handbook of the birds of the world. Tufted Duck.
[5]
- База данных UniProt.
[6]
- DigiMorph. Uromastyx hardwickii, Indian Spiny-tailed Lizard.
[7]
- База данных UniProt.
© Serebrennikova Maria 2017